Rank in Wordlist | Word | Rank in Wordlist | Word |
---|---|---|---|
1 | yang | 26 | tersebut |
2 | dan | 27 | adalah |
3 | di | 28 | lebih |
4 | ini | 29 | sebagai |
5 | itu | 30 | saya |
6 | dalam | 31 | hari |
7 | untuk | 32 | atau |
8 | dengan | 33 | boleh |
9 | tidak | 34 | telah |
10 | pada | 35 | menjadi |
11 | kepada | 36 | ada |
12 | akan | 37 | kita |
13 | mereka | 38 | ketika |
14 | ke | 39 | orang |
15 | juga | 40 | selepas |
16 | bagi | 41 | lagi |
17 | negara | 42 | satu |
18 | Malaysia | 43 | perlu |
19 | daripada | 44 | turut |
20 | berkata | 45 | lalu |
21 | tahun | 46 | seperti |
22 | katanya | 47 | serta |
23 | dari | 48 | sini |
24 | oleh | 49 | dua |
25 | kerana | 50 | Datuk |
The table shows the top-50 words of the corpus. Usually we see stopwords.
Language: Afrikaans
This list is a good candidate for a first stopword list for a language.
Usually a small, balanced corpus is enough to get a good list of high frequent words. But if the small corpus has some very prominent topic, this will be visible even in the top word lists.
select w_id-100 as rank_in_wordlist, word from words where w_id>100 order by w_id limit 50;
3.4 Sample words for different frequency ranges